import pandas as pd
import os

# 读取Excel文件中名为'sheet1'的工作表
file_path = r"D:\工作\具体需求\企点数据分析\202507\微调模型结果\result202507.xlsx"
df = pd.read_excel(file_path, sheet_name="Sheet1")

# 显示前几行数据以验证读取成功
print(df.head())

# 读取同一文件夹中的CSV文件的后两列数据
csv_path = os.path.join(os.path.dirname(__file__), "202507问题词筛选后两列数据 - 副本.csv")
csv_df = pd.read_csv(csv_path)

# 显示前几行数据以验证读取成功
print(csv_df.head())

# 假设两份数据的id列名都为'id'，如有不同请替换为实际列名
filtered_df = csv_df[csv_df['id'].isin(df['id'])]

# 去重并计算有多少个唯一id
unique_id_count = filtered_df['id'].nunique()
print(f"筛选后唯一id数量: {unique_id_count}")

# 显示筛选后的结果
print(filtered_df.head())

output_path = os.path.join(os.path.dirname(__file__), "failure_part.csv")
filtered_df.to_csv(output_path, index=False, encoding='utf-8-sig')
print(f"筛选结果已保存到: {output_path}")